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Capftulo 1: Distribuciones de frecuencia 

1.1 Introduccion. 

Al disponer de una cierta cantidad de datos, que han sido tornados de alguna investigacion u 
obtenidos por cualquiera otra forma y, estar interesados en extraer la mayor cantidad de 
informacion posible, a partir de la cual podamos realizar algunos analisis y establecer 
conclusiones, estamos haciendo lo que se llama “ESTADISTICA”. 

Asf, en general podemos decir que la estadistica es el proceso de manejo de datos, que 
comienza por la recoleccion de la informacion, el procedimiento de manejo o resumen, el 
analisis y las conclusiones. Este proceso se lo realiza siempre con base en unos objetivos y 
por lo tanto, implfcito y explfcitamente se esta realizando investigacion de una manera 
tecnica y cientffica. 

Esquematicamente, tenemos: 


Objetivos de la investigacion 

1 

Recoleccion de la informacion 


1 _ 

Resumen de los datos usando algun procedimiento tecnico 
o metodo cuantitativo 

1 ~ 

Analisis de los resultados 


1 _ 

Conclusiones y recomendaciones 


Siendo este esquema 1 el proceso general que se sigue en la investigacion cientffica, se tiene 
que la estadistica (que es parte de las matematicas), sirve para todas las ramas del saber. 


Vease, Cumsille Francisco, Investigacion, ECO/OPS, Metepec, Mexico 1992. 
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1.2 Tipos de variables 


Al analizar un conjunto de datos, muchas veces no se da ninguna importancia al tipo de 
datos que se pretende analizar, pudiendo cometer grandes errores al momento de aplicar los 
procedimientos de analisis, en la interpretacion y establecer conclusiones falsas. 

Asl, tomemos el siguiente caso (muy frecuente de malas interpretaciones y conclusiones). 

Supongamos, por ejemplo, que en un cierto dla, en la ciudad de Quito, tenemos una 
temperatura ambiental de 10 grados centlgrados (10°C), mientras que en Guayaquil, hay 
una temperatura de 20 grados centlgrados (20°C). Con base en estos datos, ^que se podrla 
decir o analizar acerca de la temperatura ambiental de las dos ciudades mas grandes del 
Ecuador?. 

Aigunos diran: 

• en Guayaquil hace mas calor (c). 

• Quito es mas frlo (c). 

• la temperatura de Guayaquil es el doble (20/10=2) que la temperatura 
de Quito (i). 

• la temperatura de Quito es la mitad (10/20=0,5) que la temperatura de 
Guayaquil (i). 

• la temperatura de Guayaquil es mayor en 10°C a la temperatura de 
Quito (c). 

• etc, etc. 


Algunas de estas afirmaciones (conclusiones) son correctas (c), pero otras son incorrectas 
(i) o erroneas. 

Pero, oporque son erroneas algunas de dichas respuestas?. Para verificarlo vamos a 
dar las mismas temperaturas en otra escala (grados Fahrenheit) 

Para la ciudad de Quito: 10°C o 50°F 

Para la ciudad de Guayaquil: 20°C o 68°F 

Si dividimos 20°C para 10°C, aparentemente la temperatura de Guayaquil serla el doble que 
la temperatura de Quito; sin embargo, si dividimos 68°F para 50°F, tendrlamos que la 
temperatura de Guayaquil es 1,4 veces la temperatura de Quito. 

Pero la temperatura o la cantidad de calor es la misma independientemente de que escala 
se use, luego una persona podrla concluir lo siguiente: 

• la temperatura de Guayaquil es dos veces o el doble que la temperatura de 
Quito (si tomo los datos en grados C), o 

• la temperatura de Guayaquil es 1,4 veces la temperatura de Quito (si tomo los 
datos en grados Fahrenheit). 

Asl, vemos que estas conclusiones son contradictorias , y por lo tanto existe un problema 
con la interpretacion de los resultados. 







Supongamos ahora que se pesan dos objetos, y se dan sus valores en distintas escalas. 

Objetol: 1kg o 1000 gr o 2,2 libras 
Objeto 2: 2 kg o 2000 gr o 4,4 libras 

En este caso, sin embargo, si usamos los valores en kilogramos, el objeto 2 pesa el doble 
que el objeto 1, y de igual manera si usamos los valores en gramos o en libras. 

Luego, para este caso, si es valida la conclusion de que el objeto 2 pesa dos veces mas que 
el objeto 1, o que el objeto 1 pesa la mitad que el objeto 2, es decir podemos establecer 
proporcionalidad entre los valores, mientras que con los valores de temperatura no podemos 
hacerlo, opor que?. 

La respuesta esta en el tipo o clase de variable que se esta analizando, teniendo que 
esto juega un rol muy importante en el analisis de los datos, para la correcta aplicacion e 
interpretacion de los diferentes modelos, tecnicas y procedimientos de la estadistica. 

Las variables pueden clasificarse asb 


f 

1Cuantitativas < 


1.1 Continuas 

1.2 Discretas 


Tipos variables 2 : 


2.- Cualitativas : , 


3.0 Intervalo o escala 

2.1 Ordinales 

2.2 Nominales 


v 


Se ha dejado intencionalmente las variables de intervalo o escalas como un grupo aparte por 
las caracteristicas y propiedades que tienen estas, abordando primero los otros tipos de 
variables. 

Las variables cuantitativas , son aquellas que se pueden cuantificar o medir, obteniendo 
valores que cumplen una relacion de orden, es decir, que dado dos valores cualesquiera se 
pueden comparar en el sentido de poder decir que uno de los valores es mayor, menor o 
igual que el otro valor. 

Por otro lado, las variables cualitativas , indican solamente una cualidad o caracteristica 
que no puede ser medida numericamente. 

A las mediciones de la variable cuantitativa se les llama los valores de la variable : mientras 
que, a las observaciones (o mediciones) de una variable cualitativa, se les suele llamar las 

cateqori'as de la variable . 

Una de las propiedades mas importante de las variables cuantitativas estarelacionado 
con el valor nulo o cero, el cual representa “ AUSENCIA DE LA CARACTERISTICA QUE 
SE ESTA MIDIENDO ”, teniendo como consecuencia, la no existencia del elemento que se 
estudia. 


2 Dependiendo de la escuela estadistica, esta clasificacion puede variar, existiendo en la actualidad cierta polemica y 
desacuerdos por las propiedades de las variables de escala o intervalicas. 














Por ejemplo, les presento a “Pedro”, quien mide 1,70 metros, y les presento a Maria, la que 
mide 0,0 metros. 





Maria, no existe 


Pedro, existe 


Podemos ver a Pedro (existe), mientras que a Maria no la podemos ver porque simplemente 
esta persona no existe (ausencia del individuo) 

Esta caracteristica, en la que el valor cero representa ausencia total del elemento o atributo 
que se mide, es una propiedad unica v exclusiva de las variables cuantitativas, y 
unicamente en este caso puede establecerse la proporcionalidad entre valores, es 
decir, dados dos valores pueden compararse en el sentido de que uno de los valores puede 
ser el dobie, el triple, la mitad, etc., que el otro valor. 

Asf, retomando la variable temperatura, tenemos que una temperatura de 0°C, no representa 
ausencia de temperatura (cero grados centigrados, es un valor de temperatura que lo 
podemos sentir fisicamente), y por lo tanto no podemos establecer proporcionalidades 
entre valores de temperatura, siendo este tipo de variables, las denominadas variables 
intervalicas o de intervalo o de escala , luego, la variable temperatura no es una variable 
cuantitativa. 


Como ejemplos de variables cuantitativas tenemos, peso, talla, edad, ingresos economicos, 
etc; mientras que variables como “color”, “nivel socioeconomico familiar”, “profesiones”, 
“nivel de estudios”, son ejemplos de variables cualitativas. 

Dentro del grupo de las variables cuantitativas , podemos a su vez diferenciarlas en dos 
subtipos: las continuas y las discretas. 

Las variables cuantitativas continuas son aquellas que puede tomar cualquier valor sin 
ninguna restriction, por ejemplo, podemos tener los valores 5, 6, 5.1,5.3, 5.12, etc. 

Las variables cuantitativas discretas , se caracterizan por tener valores asociados a 
valores enteros unicamente, por ejemplo, “numero de personas en una casa”, pueden haber 
1, 2, 3, 4 o 5 personas, pero no pueden haber 2.5 personas. 

Por otro lado, a las variables cualitativas, podemos subdividirlas en dos grupos o tipos, las 

ordinales y las nominales. 

Las variables cualitativas ordinales se caracterizan por que sus categorias se prestan 
para un ordenamiento de estas, mientras que las cualitativas nominales , se caracterizan 
porque no importa el orden en que se presenten sus categorias. 


Asi, tomando la variable, “Nivel de estudios”, con las categorias 















Caso 1 (ordenado) 


Caso 2 (no ordenado) 


1. Ninguna 

2. Primaria 

3. Secundaria 

4. Superior 

5. Postgrado 


1. Secundaria 

2. Postgrado 

3. Ninguna 

4. Primaria 

5. Superior 


Podemos apreciar en ambos casos (1 y 2) que ia variable es la misma, puesto que tiene las 
mismas categorias, sin embargo, parece mejor, tener las categories ordenadas (caso 1), 
ya sea en forma ascendente o descendente. Esta caracterfstica de ordenamiento y como el 
mismo nombre lo sugiere, son las variables cualitativas ordinales. 


En cambio, variables como: “Color”, con las categorias 


Caso 1 

Caso 2 

Caso 3 

Rojo 

. Azul 

. Verde 

Azul 

. Amarillo 

. Rojo 

Verde 

. Rojo 

. Amarillo 

Amarillo 

. Verde 

. Azul 


No tiene ninguna importancia que se registren o presenten las categorias en cualquier 
orden, siendo estas las variables cualitativas nominales. 

Retomando a las variables de escala, donde el valor cero o nulo no representa ausencia 
del evento que se esta midiendo, tenemos que esta variable viene a ser como una mezcla 
de cuantitativa (discreta) con cualitativa (ordinal), la que surge al tratar de cuantificar una 
caracterfstica subjetiva con base en una escala numerica. 

Por ejemplo, al querer medir el nivel de factibilidad de un proyecto social, con base en una 
escala de 0 a 5 puntos (donde 0 representa que no es factible, y el 5 en cambio representa 
que es totalmente factible), es una variable de escala o intervalica. 

Asf, esta variable la podemos expresar: 

“Nivel de factibilidad del proyecto” 

0: no es factible 
1: poco factible 
2: algo factible 
3: factible 
4: muy factible 
5: totalmente factible 

Pero aparentemente no se aprecia ninguna diferencia, por ejemplo, con la variable 
ordinal “Nivel de estudios”. Sin embargo, pueden establecerse dos diferencias claras: 


■ La primera es que con la variable “Nivel de estudios”, tenemos estrictamente 
categorias (cualidades), mientras que la variable “Nivel de factibilidad del 
proyecto”, asigna un valor numerico para tratar de cuantificar la factibilidad de 
ejecucion de un cierto proyecto. 






■ Con la variable cualitativa ordinal, digamos que el “esfuerzo” o trabajo de ir o 
pasar de una categoria a otra, es diferente. Por ejemplo, el pasar de la 
categoria “ninguna instruccion” a la categoria “primaria”, es muy diferente que ir 
de “superior” a “postgrado”. En cambio, en las variables de escala, este 
“esfuerzo” es el mismo, es decir, un cambio en un punto es igual ai comienzo o 
al final de la escala, como es el caso de la temperatura. 


Con esta ultima afirmacion, sin embargo, hay muchos investigadores que no estan de 
acuerdo, y se estan realizando estudios para tratar de llegar a un acuerdo. 

Ejempios de variables de escala son las siguientes: temperatura, coeficiente intelectual, nota 
de los alumnos en una materia, calificacion de un atleta por parte de los jueces, etc. 

Luego como el valor cero o nulo, en este caso no representa ausencia del atributo, con 

estas variables no podemos establecer proporcionalidad , pero si calcular algunas 
estadisticas por tener una escala metrica, como son promedios, varianzas, entre otras. 


1.3 Distribuciones de frecuencia 

Una vez que se dispone de una cierta de cantidad de datos de alguna variable, interesa 
analizar esta informacion, para lo cual el procedimiento natural consiste en resumir o 
aqreqar los datos , de tal manera que se pueda comprender o extraer la informacion que 
estos contienen. 

El procedimiento mas conocido y facil, es el llamado distribucion de frecuencias , que 
consiste con contar el numero de veces que se repite un valor o categoria, obteniendo la 
llamada “frecuencia absoluta”. 

Sin embargo, la manera como se realiza la distribucion de frecuencias, depende del tipo de 
variable que se quiere analizar. 

Para el caso de las variables cualitativas, generalmente se procede directamente a contar el 
numero de veces que se repite cada una de las categorias de la variable; pero para el caso 
de las variables cuantitativas, la mayoria de las veces debe construirse intervalos (llamados 
a veces “intervalos de clase”). 

Asi, por ejemplo, tomemos unos datos sobre el tipo de combustible utilizado para cocinar por 
un grupo de 6167 familias. La tabla de distribucion de frecuencias es la siguiente: 

Tabla resumen de distribucion de frecuencias: 

COMBUSTIBLE para COCINAR 


Frecuencia absoluta 


Categorias Gas 


4466 

28 

5 

31 

1607 

30 


Electricidad 
Gasolina 
Kerex o diesel 
Lena o carbon 
Ninguno /no cocina 


Total 


6167 







Sin embargo, como el objetivo de este procedimiento (distribution de frecuencias), es el de 
resumir y presentar la mayor cantidad util y posible de informacion para los usuarios, a partir 
de la frecuencia absoluta, suelen construirse otras estadisticas, como: 

• La frecuencia relativa, que consiste simplemente en presentar la frecuencia absoluta 
en terminos porcentuales. 

• La frecuencia absoluta acumulada, que consiste en ir reaiizando una suma 
acumulada de las frecuencias a traves de las categorfas, ya sea en forma 
ascendente o descendente. Y, de una forma similar se puede construir tambien la 
frecuencia relativa acumulada 

Estas ultimas estadisticas (frecuencias acumuladas), tienen sentido con todos los tipos de 
variables descritas, a exception de las variables cualitativas nominales. 

Asf, se construyen cuadros resumen de distribuciones que pueden aportar mayor 
informacion, como se tiene a continuation: 

COMBUSTIBLE para COCINAR 


Categorfas 

Frecuencia 

Frecuencia 

Frecuencia 

absoluta 

Frecuencia 

relativa 


absoluta 

relativa 

acumulada 

acumulada 

Gas 

4466 

72.4% 

4466 

72.4% 

Electricidad 

28 

0.5% 

4494 

72.9% 

Gasolina 

5 

0.1% 

4499 

73.0% 

Kerex o diesel 

31 

0.5% 

4530 

73.5% 

Lena o carbon 

1607 

26.1% 

6137 

99.5% 

Ninguno /no cocina 

30 

0.5% 

6167 

100.0% 

Total 

6167 

100.0% 




Para el caso de variables cuantitativas, tomemos el nivel de ingresos familiares para las 
mismas familias, en cuyo caso deben construirse intervalos, ya que se tienen demasiados 
valores distintos, que varfan desde 0 hasta 1200 dolares. Puede construirse la siguiente 
tabla resumen de distribucion de frecuencias: 


Nivel de ingresos familiares 


Categorfas 

Frecuencia 

absoluta 

Frecuencia 

relativa 

Frecuencia 

relativa 

acumulada 

De 0 a 200 dolares 

664 

10.8 

10.8 

De 201 a 500 dolares 

3603 

58.4 

69.2 

De 501 a 800 dolares 

1844 

29.9 

99.1 

De 800 a 1200 dolares 

56 

0.9 

100.0 

Total 

6167 

100.0 



Sin embargo, esta es una distribucion totalmente arbitraria, utilizando puntos de corte para la 
distribucion de los datos igualmente arbitraria. 

Ante esta situation, ^existe reglas para establecer el numero y la longitud de los intervalos?; 
la respuesta es que hay una sola regia, y es que “ no hay reglas ”. La forma como se 
construyen estos intervalos depende basicamente de los objetivos de la investigation. 



Una cosa que es muy importante resaltar, es que ai tener una muestra representativa de la 
poblacion estudiada, la frecuencia relativa, viene a ser la probabilidad de ocurrencia 3 de 
cada una de las categorias definidas, es decir, se podria decir que la probabilidad “surge” de 
las distribuciones de frecuencia. 

AI realizar una representation grafica de la distribucion de frecuencias, se obtiene un grafico 
llamado “histograma de frecuencias”: 


Nivel de ingresos familiares 



200 500 800 1200 

dolares dolares dolares dolares 


Este grafico de barras, nos muestra la distribucion de los datos, e implicitamente nos indica 
como se distribuye la probabilidad de ocurrencia de los eventos. 

Y, a partir de las formas de los histogramas puede intuirse sobre que distribucion o ley de 
probabilidad se ajusta mejor a los datos para realizar, si fuese el caso, otras pruebas 
estadfsticas. 

Hay un caso especial de los histogramas llamado “ Grafico de PARETO ”, el mismo que 
consiste en graficar las categorias ordenandolas de acuerdo a la frecuencia (de mayor 
frecuencia a menor frecuencia), conjuntamente con una Ifnea que representa a la frecuencia 
acumulada. Estos graficos suelen aplicarse en proyectos de control de calidad, graficando 
los principales problemas (por su frecuencia) y que tendran prioridad para su tratamiento. 

De estos graficos de Pareto, surge el famoso criterio llamado “80 - 20”, que significa que 
atacando el 20% de las principales dificultades, puede resolverse el 80% de los problemas. 


Nota: para trabajo de clase, desarrollar como se construyen los 
graficos de (i) “TALLOS Y HOJAS”, (ii) DIAGRAMAS DE CAJA”, y 
(iii) “PIRAMIDES DE POBLACION”. 


3 Algunos investigadores, definen la probabilidad de ocurrencia de un evento, como el limite de la frecuencia 
relativa, cuando la muestra es suficientemente grande. 






























Capitulo 2: Medidas de tendencia central 

2.1 Introduccion. 

En el proceso de resumir los datos para describir la informacion, surgen otros 
procedimientos englobados en lo que se ha dado por llamar medidas de tendencia central 
cuyo objetivo o proposito es hallar un valor o categoria que sea “representative” de todo el 
conjunto de datos. Este valor “representative” de las caracteristicas y atributos de todo el 
conjunto de datos, es lo que se conoce como el promedio de la distribucion de datos. 

Sin embargo, es muy comun observar en libros y publicaciones en general, que 
dependiendo del area de estudio, por ejemplo, en el campo economico, utilizan la tecnica del 
valor modal para establecer el promedio de los ingresos familiares, o si se revisan 
aplicaciones en el area de la bioestadfstica, para establecer el valor promedio de medidas 
antropometricas, usan el metodo de la mediana. 

Es decir, que el promedio, no consiste, por ejemplo, cuando le preguntan a cualquier 
persona, ^como calcula la nota promedio de cierta asignatura?, y responde: “se suman 
todas las notas y se divide para el numero de alumnos”. 

Asf, el valor promedio de un conjunto de datos, es un valor que trata de caracterizar o 
representar a todos los valores, teniendo que al valor promedio se lo suele confundir 
permanentemente con el procedimiento de la media aritmetica. 


2.2. Metodos para establecer el promedio de una distribucion 

El valor promedio, o simplemente el promedio de la distribucion de datos, pueden obtenerse 
por tres metodos o procedimientos: 


• la media aritmetica 

• la mediana, y 

• la moda 


De estos tres procedimientos, el mas conocido y utilizado (por sus propiedades como 
estadistico) es la media aritmetica, y de alii la razon para creer que le media aritmetica es el 
promedio, siendo en realidad que la media aritmetica es uno de los procedimientos o 
metodos para llegar a obtener el valor promedio de nuestro conjunto de datos. 

Y, ante la pregunta “i,por que hay varios metodos para calcular el promedio?”, se debe al 
tipo de variable que se dispone. 

Los procedimientos de calculo del promedio, se definen, considerando que se tiene una 
variable X con una muestra de n valores (Xi,X 2 ,...,X n ), de la siguiente manera: 

• Media aritmetica: se suman los valores de la variable, y se divide para el numero de 
muestras (o casos) que se dispone, es decir: 



n 





Mediana: es el valor que divide a la distribution de datos en dos partes iguales. Pero 
para establecer tai valor, los datos deben ser primeramente ordenados, ya 

sea en forma ascendente o descendente. Asf, se tiene que de todo el conjunto de 
datos, el 50% esta por debajo de la mediana, y el otro 50% esta por encima de la 
mediana. 


Asf, se ordenan los datos (X 1 ,X 2 ,...,X n ) 


X’i 
X’ 2 
X’g 
X’ 4 
X’s 

X’jestfe~vatDr es la mediana 


X’n -3 > 50% de los datos 

X'n-2 


• Moda: se define como el valor o categorfa que mas veces se repite. Si se llegara a 
tener dos valores con la misma frecuencia (la mas alta), se dice que la moda o el 
valor modal no existe. 

A continuation veamos algunas consideraciones sobre estos procedimientos para establecer 
el promedio. Se dice que la mediana, “no es sensible a valores extremos”, ^que significa 
esto?, veamos un ejemplo: sea la variable edad, con los siguientes valores de anos de tres 
personas: 

16 

17 (mediana) 

18 

Calculando la media aritmetica, obtenemos 17 anos, e igualmente calculando la mediana 
obtenemos tambien 17 anos. 

Supongamos ahora, que en vez de la persona de 18 anos, se junta al grupo el famoso 
personaje bfbiico, el senor Matusalen, quien tiene 900 anos de edad. Asf, la muestra de 
datos serfa la siguiente: 

16 

17 (mediana) 

900 

Nuevamente, calculamos la media aritmetica, obteniendo una edad promedio para el grupo 
de 311 anos, mientras que la mediana sigue siendo 17 anos (porque es el valor que divide al 
conjunto de datos en dos partes iguales). Luego, podemos apreciar que la mediana no se ve 
afectada por valores extremos (llamados tambien, valores fuera de rango), no asf la media 
aritmetica, que puede cambiar notablemente, y por supuesto carecer de sentido, siendo en 
ese caso totalmente inadecuada como una medida estadfstica de resumen. 


a 


> 


50% de los datos 


j 












Pero, entonces surge la gran pregunta ^cual de los tres procedimientos debe utilizarse, 
o cual procedimiento es mas adecuado utilizar?, ante lo cual, lamentabiemente, no existe 
una regia que diga que se debe usar tal o cual metodo de tendencia central. 

Sin embargo, con base en las distribuciones e histogramas de frecuencias puede tenerse 
una buena guia para decidir cual de los tres metodos puede ser el mas adecuado, como el 
caso de la mediana, que al tener una muestra de datos con valores extremos (atfpicos o 
fuera de rango), definitivamente no debe usarse la media aritmetica, sino la mediana. Si a 
pesar de todo, no tenemos la seguridad o confianza de cual medida utilizar, creo que podrfa 
tomarse como la mejor guia, la experiencia de miles de investigadores plasmada en libros y 
publicaciones, donde, de acuerdo al area y tipo de investigation mencionan los 
procedimientos utilizados. 

2.3. Cuantiles 


Otras medidas resumen (no de tendencia central), pero si de posicionamiento a lo largo de 
la distribucion de los datos que ayudan a describir estos, son los denominados cuantiles, 
teniendo entre los mas frecuentemente utilizados los: 


• Cuartiles : son los valores del conjunto de datos que dividen a la distribucion 

ordenada de datos en cuatro partes iguales. 

• Quintiles : son los valores del conjunto de datos que dividen a la distribucion 

ordenada de datos en cinco partes iguales. 

• Deciles : on los valores del conjunto de datos que dividen a la distribucion ordenada 
de datos en diez partes iguales, y finalmente 

• Percentiles : son los valores del conjunto de datos que dividen a la distribucion 
ordenada de datos en cien partes iguales. 


Al igual que en el caso de la mediana, los datos primeramente deben ser ordenados, antes 
de proceder a realizar la partition requerida, por ejemplo, para el caso de los cuartiles, se 
tendrfa, ordenando los datos (Xi,X 2 ,...,X n ): 


X’i 

X’ 2 

X’ 3 

X’4 

X’s 

X’j 


„ 25% de los datos 


* -ler cuartil 

„ 25% de los datos 

^ 2do cuartil 


X’ 

X’ 

X’ 

X’ 


n-3 

n-2 

n-1 

n 


25% de los datos 

< -3er cuartil 


► 

25% de los datos 


De forma similar, se procede para 
los otros tipos de cuantiles. 
Puede comprobarse facilmente 
que el 2do cuartil, es 
equivalente a la mediana 
(puesto que este cuartil divide a 
los datos en dos partes iguales). 
De igual forma, el 5to decil o el 
percentil 50, coinciden tambien 
con la mediana, ya que estos 
valores dividen a la distribucion 
ordenada de datos en dos partes 
iguales (definition de mediana, 
medida de tendencia central). 






















2.3 Indicadores 


2.3.1. Introduccion 

Otras formas de resumir la informacion, tiene como base los “indicadores”, que tratan de 
explicar y describir resultados de procesos socioeconomicos en general, permitiendo vigilar 
de forma periodica el desarrollo e impacto de los procesos de intervention tanto publicos 
como privados. 

Un indicador podria definirse como una variable que busca describir o caracterizar un 
determinado evento, y su relevancia se lo puede apreciar con base en las siguientes 
definiciones: 

“Los indicadores sociales son estadisticas con un significado y, frecuentemente, con un 
mensaje. Revelan la realidad detras de los numeros. Al develar las diferencias o 
disparidades en esa realidad, pueden convertirse en herramientas utiles para diagnosticar 
las desigualdades y seguir el progreso de su eradication”, Mayra Buvinic, UNESCO 

“Los indicadores sociales buscan describir y explicar los resultados del desarrollo social y 
economico. El desarrollo, como todo proceso de cambio, es producto de la interaction de 
multiples factores o causas. Su analisis requiere, por tanto, medidas con distinta capacidad o 
funcion explicativa”, SIISE version 3.5. 


2.3.2. Clasificacion de los indicadores 

Los indicadores pueden ser clasificados en tres clases: 

• Indicadores de resultado: miden las consecuencias de los procesos 
socioeconomicos, reflejando los niveles de satisfaction de necesidades basicas 
alcanzados, pero no reflejan ni explican el porque del problema. 

• Indicadores de insumo: reflejan los medios necesarios para alcanzar un cierto nivel 
de vida, es decir la oferta disponible de recursos en general y que son de vital 
importancia para entender el bienestar, puesto que el hecho de que la poblacion 
disponga de ciertos condicionantes propios (ingresos, educacion, empleo, etc), no 
necesariamente son una garantia para acceder a los recursos si estos llegaran a ser 
escasos como los alimentos, sean por causas naturales (terremotos, sequias), o 
politicas de los gobiernos; o carencia de planteles escolares rurales por falta de 
inversion publica en areas de gran productividad. 

• Indicadores de acceso: miden los determinantes o niveles socioeconomicos propios 
con que cuenta la poblacion, que condicionan su capacidad para acceder a la oferta 
disponible de recursos. 

Se recalca que la disponibilidad de medios propios no garantiza el acceso a los 
recursos (oferta), debido tambien a costos excesivos de ciertos servicios, como salud 
privada o educacion privada, o acceso a algunos alimentos por restricciones 
arancelarias. 



Esquematicamente tenemos: 

• Indicador de Resultado (consecuencias) 

• Indicador de Insumo (recursos disponibles / oferta) 

• Indicador de Acceso (condiciones socioeconomicas) 


2.3.3. Procedimiento de calculo: proporciones, razones y tasas 

Entre las formas de construir indicadores, tenemos los siguientes procedimientos: 

• Proporciones: que no es otra cosa que la frecuencia relativa, expresada en terminos 
de la unidad, y por lo tanto puede decirse tambien que una proporcion es 
simplemente el cuociente de dos cantidades de ia misma clase o naturaleza, donde el 
numerador es una parte del denominador (definicion de frecuencia relativa). Cuando a 
una proporcion se le multiplica por cien, se tiene los porcentajes. 

• Razon: una razon se define como el cuociente de dos cantidades de distinta clase, 
por ejemplo, el hacinamiento (personas por dormitorio), en el numerador va el numero 
de personas del hogar, y en el denominador el numero de dormitorios con que cuenta 
el hogar. 

• Tasas: una tasa es una proporcion o una razon, multiplicada por una cierta constante 
para darle mas sentido al indicador. Como ejemplo, tenemos el indicador muy 
conocido “mortalidad infantil”, que se define como el cuociente entre ninos menores 
de 1 ano fallecidos y el total de nacidos vivos, multiplicado por 1000, donde la 
constante nos indica el numero de ninos muertos por cada 1000 nacidos vivos. 

Asf, de acuerdo a la definicion de tasa, un porcentaje puede ser visto como una tasa. Por 
ejemplo, es comun hablar de “tasa de escolarizacion de adolescentes” que no es otra cosa 
que el porcentaje de adolescentes que asisten a clases. 




Capitulo 3: Medidas de dispersion 

3.1 Introduccion. 

Supongamos que se tienen dos grupos de estudiantes, los que tienen la misma nota 
promedio de una cierta asignatura, digamos x =15 . Ante esto, ^se podria suponer 
que el comportamiento de ambos grupos es similar en cuanto al rendimiento academico?. 

La respuesta es: “no necesariamente los grupos tienen el mismo comportamiento”, ya que, 
por ejemplo, podria darse el caso que, en uno de los grupos, todos sus integrantes tengan 
notas similares y alrededor de la media; mientras que en el segundo grupo, la mitad de ellos 
son “muy dedicados”, y la otra mitad “muy dejados”, pero que los juntaron en un solo grupo 
para tratar de motivarlos al estudio. 

Graficamente, esta situation podria verse asf: 


Primer grupo 

x 


Segundo grupo 

x 


Puede apreciarse que el primer grupo es homogeneo (calificaciones similares), mientras que 
el segundo grupo tiene un comportamiento muy heterogeneo (calificaciones muy variables), 
y por lo tanto tienen comportamientos diferentes estos grupos. 

Esto hace necesario analizar la variabilidad de los datos, que viene a ser el ultimo aspecto a 
considerar en el proceso de describir un conjunto de datos (recuerdese que los dos 
primeros, digamos, “pasos”, fueron resumir la informacion con base en las distribuciones de 
frecuencia, teniendo implfcitamente la distribution de probabilidades, y el segundo paso, 
establecer tendencia central). 

Asf, con el analisis de la variabilidad de los valores, se viene a cerrar el cfrculo del analisis 
descriptivo de un conjunto de datos de manera tecnica, disponiendo de elementos de juicio 
adecuados para el analisis de la informacion. 

3.2 La varianza y la desviacion estandar 

El analisis de la variabilidad de los datos juega un rol fundamental en el analisis de los datos, 
ya que podemos determinar si los datos son relativamente homogeneos o heterogeneos, 
conceptos de mucha importancia en el tratamiento de datos. 

Existen varias estadfsticas disenadas para medir la variabilidad de los datos, sin embargo, 
vamos a considerar unicamente las dos medidas de variabilidad que se usan 
cotidianamente, y que ademas tienen propiedades estadfsticas que permiten definir otros 
conceptos, siendo estas la varianza y la desviacion estandar. 






Para medir la variabilidad o dispersion de los datos, se toma un valor de los datos como 
punto de referencia, respecto del cual se cuantifica la variabilidad o dispersion, siendo este 


punto de referencia, la media aritmetica 


Asf, tenemos el siguiente esquema: 
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Se define el desvfo de un dato cualquiera como la distancia que hay entre la observation y 
la media aritmetica (se toma esta como punto de referencia), pudiendo tener desvfos 
positivos (si el dato es mayor que la media aritmetica), o desvfos negativos (si el dato es 
menor que la media aritmetica), es decir: 


desvio = d t = (X i - X ) 


Sea una variable X y la muestra de valores (Xi,X 2 ,...,X n ). A partir de estos desvfos, se 
definen las medidas de dispersion mencionadas como: 


■ Varianza : (varianza muestral), se define como el promedio de los desvfos elevados al 
cuadrado. 



l 

(n-\) 




■ Desviacion estandar : se define la desviacion estandar como la rafz cuadrada de la 
varianza. 


S = Desviacion estandar — v Varianza 





i 
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Es importante resaltar que la varianza, cuantifica la dispersion de los datos, en la unidad de 
medida de la variable pero al cuadrado, provocando que sea bastante diffcil el poder 
abstraer o imaginar tal variabilidad, pero no por eso deja de ser util, ya que esta tiene un 
sinnumero de aplicaciones. 





















Ante tal situation, como lo deseable es tener una estadistica que cuantifique la dispersion de 
los datos en las mismas unidades que la variable X, se obtiene la desviacion estandar 
tomando la raiz cuadrada de la varianza. 

La desviacion estandar juega un rol vital en el analisis de los datos, ya que, asi como para 
medir longitudes, se tiene el metro como unidad de medida, o para cuantificar pesos, se 
tiene el kilogramo como la unidad de medida, en el campo de la estadistica, interesa 
cuantificar la dispersion de los datos, teniendo en este caso como unidad de medida de la 
dispersion de los datos a la desviacion estandar. 

Dada una muestra con un comportamiento en forma de campana, se tiene la siguiente 
distribution: 



«- > 

95 % 

<-> 

99 % 

Es decir que, en el intervalo que se forma al recorrer una desviacion estandar hacia la 
izquierda y derecha de la media aritmetica, se tiene aproximadamente el 68% de todos los 
datos. Entre dos desviaciones estandar queda el 95% de toda la information, mientras que 
entre tres desviaciones estandar se tiene el 99% de todos los datos. 


Para apreciar la formula y calculo de la varianza, veamos el siguiente ejemplo considerando 
la variable “Ingresos laborales”: 


Datos 

Ingresos 

laborales 

(X) 

(X - media) 

elevamos al 
(X - mi 

1 

200 

(200-324) 

15376 

2 

250 

(250-324) 

5476 

3 

280 

(280-324) 

1936 

4 

300 

(300-324) 

576 

5 

320 

(320-324) 

16 

6 

350 

(350-324) 

676 

7 

380 

(380-324) 

3136 

8 

380 

(380-324) 

3136 

9 

380 

(380-324) 

3136 

10 

400 

(400-324) 

5776 

Promedio 

324 

Sumamos 
Varianza = 

39240 

39240 / 9 = 


4360 


Tomando la raiz cuadrada de 4360, obtenemos la desviacion estandar, es decir, 66,0. 


Se menciono que estos conceptos de variabilidad juegan un rol importante en el analisis de 
los datos, puesto que nos permite establecer el nivel de dispersion y por ende el grado de 
homogeneidad o heterogeneidad, conceptos de mucha importancia en el tratamiento de 
datos, puesto que si son homogeneos, entonces el promedio es una medida resumen 
pertinente y representativa de los datos, en caso contrario no lo es, y por lo tanto no es 










adecuado el promedio como una medida de resumen, y en tal caso es preferible presentar 
una distribucion de frecuencias como medida resumen. 

Pero como saber si los datos son ^homogeneos o heterogeneos?, la respuesta ia 
tenemos con el Ilamado coeficiente de variacion. 


3.3 Coeficiente de variacion 

El coeficiente de variacion (CV) mide la magnitud de la dispersion o variabilidad de los datos 
respecto del valor promedio, asf, este coeficiente se calcula dividiendo la desviacion 
estandar para la media aritmetica: 


. , . ., Desviacion _ estandar 

Coejiciente_ de _ var mcion =- 

Media aritmetica 


Se acostumbra multiplicar este coeficiente por 100 y, de acuerdo a la experiencia de muchos 
investigadores y cientfficos, se ha establecido como criterio de homogeneidad (con base en 
la experiencia, no por procedimientos tecnicos) lo siguiente: 

• Si, el coeficiente variacion < 20%, se puede asumir homogeneidad 

• Si, el coeficiente variacion > 20%, se asume heterogeneidad 

Otros investigadores, han sugerido como punto de corte, no 20%, sino un 15%, es decir que 
esto depende del investigador y de los objetivos y necesidades del estudio que se lleve a 
cabo. 

Asf, por ejemplo, para el caso de la variable “Ingresos laborales” del punto anterior, tenemos 
que el coeficiente de variacion es: 

CV = 66 / 324 = 0,204 (20,4%) 

De donde podrfamos decir que tal muestra es heterogenea y por lo tanto el promedio (324), 
no es una medida resumen adecuada o util , puesto que se tiene una poblacion muy 
variable, y en tal caso como alternativa resumen de los datos es mejor una distribucion de 
frecuencias. 

Algo que es importante resaltar de este estadfstico (coeficiente de variacion), es que no 
tiene unidad de medida, y como tal se lo puede utilizar tambien para comparar las 
dispersiones o variabilidades de dos o mas variables de naturaleza muy distintas, por 
ejemplo, el peso y la talla. 

Supongamos que quisieramos conocer de un cierto conjunto de datos, que variable, el peso 
o la talla, presentan mayor dispersion. Para esto, se calculan los coeficientes de variacion de 
cada una de las variables y se comparan (esto es posible hacerlo, puesto que, el coeficiente 
de variacion, no tiene unidad de medida). 

Luego, como el coeficiente de variacion mide la magnitud de la dispersion de los datos, 
comparando los coeficientes, se tiene que el mayor valor, nos indica la variable con mayor 
dispersion. 





3.4 La variable estandarizada 


Sea una variable X y la muestra de valores (X 1 ,X 2 ,...,X n ). Se define la variable 
estandarizada Z, -generada a partir de X-, como: 


Xj-X 

S 


para i = 1,2,3,..,ft 


Propiedades: 

i. La media es cero, (Z - 0) 

ii. La varianza es uno, (S 2 = l) 


Este estadfstico no tiene unidad de medida y por sus propiedades se la utiliza en varias 
aplicaciones -algunas se veran mas adelante-. 


Notas: 

1. Se muestra a continuacion el uso de este instrumento en la cuantificacion del estado 
nutricional de los ninos menores de cinco anos para obtener los indicadores llamados 

“prevalencia de desnutricion cronica”, y “prevalencia de desnutricion global”. EstO 

se desarrolla en clase directamente. 


2 Se desarrolla en clase tambien el concepto de covarianza. 







